#Claude Opus
一個介面測了 N 個模型,DeepSeek V3.2 把我的頭給想禿了。。。
DeepSeek-V3.2 突然發佈,那參數強得離譜……基本上把 GPT-5 都按在地上摩擦了。圖:國外網友瘋狂研究 DeepSeek 3.2累不累啊?Benchmark 資料直接拉滿,而成本更是暴擊一堆海外頂尖模型。價格只有 GPT-5 的約 20%,輸出 Token 甚至只有它的 1/24。圖:DeepSeek  V3.2 參數大家都嗨了。而且這玩意還完美適配 Claude 生態,只需要改名成“deepdeek-reasoner”就好了。作為一個有“模型收集癖”的老玩家,我當時的反應和大家一樣:“扶我起來,我要測它!”但剛坐到電腦前,我就萎了。01| 以前測模型的“勸退”流程你們有沒有算過,以前我們要想對比測試幾個模型,得掉多少根頭髮?想測 DeepSeek?去官網。想測 Claude?去外網。想測阿里通義?去阿里雲。每個平台都得註冊帳號,綁手機,填發票資訊,還得先充值(那怕我只測幾毛錢)。最崩潰的來了。每家的 API 文件都長得不一樣!這家的參數叫 max_tokens,那家非要叫 max_output_tokens。為了相容這堆亂七八糟的介面,我得寫一堆 if-else 的“屎山程式碼”。圖:傳統的模型使用流程我就想簡單的問一句:“DeepSeek V3.2 和Claude Opus 4.5 到底誰寫程式碼更好?”結果這還沒開始測,我已經被“配環境”給勸退了。02|降維打擊:一個介面,通吃所有我實在不想再這麼折騰了,還好有朋友給我推薦了一個神器。它把市面上幾乎所有叫得上名字的頂尖模型(DeepSeek-V3.2、Opus 4.5、Gemini 3 Pro...),全部封裝成了一個標準的 OpenAI 相容介面。市面上做模型中轉的工具不少,但能以雲廠商的底座做到如此絲滑封裝的,還真不多。這就是七牛雲。它不僅僅是省事,這是玩法的降維打擊。這意味著,在我的視角裡,DeepSeek 和 Claude 不再是兩個需要分別配置的龐然大物,它們只是兩個不同的“字串名字”而已。我要做的,就是配置一次七牛雲的 Key。然後? 然後我就擁有了整個 AI 世界。03| 極致偷懶:Vibe Coding 實現“模型自由”既然介面統一了,我甚至連程式碼都懶得自己寫了。我打開了 Google AI Studio,然後開啟了 Vibe Coding(氛圍感程式設計) 模式。不到 10 分鐘,我擼了一個模型競技場出來:圖:模型競技場我一口氣把市面上的主流模型全擼了進來,想測那個測那個。這感覺,太 tm 爽啦!放在程式碼裡也一樣,以前我的程式碼(一堆亂七八糟的 import):import openaiimport anthropic# 此處省略50行噁心的配置程式碼現在我的程式碼:只需要改 model 參數,其他全都不用動client = QiniuAI(api_key="...")# 1. 遇到難題?切 CEO 帳號response = client.chat(model="deepseek-v3.2", messages=complex_task)# 2. 髒活累活?切 牛馬 帳號response = client.chat(model="qwen-turbo", messages=format_task)這就很舒服了。下次有新的模型一上,我不需要改邏輯,改個字串就能無縫升級。比如我突發奇想寫一個賽博朋克風的俄羅斯方塊,DeepSeek V3.2 Speciale 號稱宇宙無敵,先拿它來試試。結果它整整思考了 453 秒....圖:DeepSeek V 3.2 Speciale 思考時間很長然後寫了這玩意。。。圖:DeepSeek V3.2 Speciale 生成的遊戲接著我再試試 Gemini 3 Pro,我只需要在這裡換個模型名字就可以了。這回它不到 2 分鐘就完成了,快到飛起。圖:模型競技場中選擇模型而且這個效果也是碾壓啊。。 所以,模型好不好,不要光看跑分,實際跑一下吧。。。圖:Gemini 3 Pro 生成的遊戲整個過程非常絲滑,畢竟他們是做雲的,這速度非常流暢,不管模型在那,延遲都很低。但不得不說,DeepSeek V3.2 這個最牛逼的模型(Speciale),也是真的慢。04 最後的碎碎念:小孩子才做選擇這個模型競技場對我這種博主來說,太有用了。在這個“三天一個新模型”的瘋狂時代,效率就是生命。我是真的不想再把時間浪費在註冊帳號和配環境上了。很多人問我到底那個模型好?說實話這個問題沒有答案,模型各有千秋,我也會同時使用多個模型。下一步我還想做一件事兒,就是把多個模型放在一塊組成一個委員會,就是所謂的 LLM Council。圖:設想中的 LLM Council這也是有了七牛雲這個“萬能插座”後才能實現的玩法。你想想,每次你問一個問題,背後是一整個“復仇者聯盟”在給你出謀劃策。這才是 AI 正確的打開方式。小孩子才做選擇,成年人當然是全都要! (AI范兒)
終結OpenAI壟斷的11人
【新智元導讀】估值飆升至3500億美元,Claude Opus 4.5強勢登頂企業級市場,Anthropic正式終結了OpenAI的獨角戲時代。從Instagram創始人到OpenAI的「決裂者」,這11位頂尖人物組成了矽谷最豪華的「復仇者聯盟」。他們用一場驚天逆襲證明,在通往AGI的狂飆突進中,對安全的極致堅守才是最深的護城河。如果你在2021年走進Anthropic的辦公室,看到的只是一群從OpenAI「叛逃」出來的理想主義者;但如果你今天再看Anthropic的高管名單,你會發現這已經不再是一個簡單的實驗室,而是一支足以撼動矽谷版圖的「全明星復仇者聯盟」。隨著Anthropic的估值在本月飆升至驚人的3500億美元,Claude Opus 4.5更是拿下了企業級市場32%的份額。在這個龐大的數字帝國背後,是11個性格迥異、背景傳奇的掌舵者。他們有人曾一手打造了Instagram,有人曾是OpenAI最核心的大腦,有人則是守護過Netflix全球資料的守夜人。這是一份關於信仰、決裂與重塑的名單。權力的雙核:兄妹與決裂故事的起點始終是Dario Amodei(CEO)。這位前Google科學家和OpenAI研究副總裁,在四年前做出了一個震驚業界的決定:帶著六名親信出走。原因很簡單,他無法接受老東家在安全問題上的激進。Dario是那種典型的「技術苦行僧」,他拒絕了OpenAI的併購提議,堅守獨立研究。而站在Dario身旁的,是他的親姐姐Daniela Amodei(總裁)。哥哥仰望星空,妹妹腳踏實地。Daniela有著極罕見的履歷:從政治競選的泥潭中摸爬滾打,轉型為Stripe的風控經理,再到OpenAI的安全副總裁。在Anthropic,她是那個能讓理想主義落地的人,直接管理著包括CTO在內的核心高管,確保這家公司的骨架不會被飛速增長的肌肉壓垮。矽谷頂流的跨界當「濾鏡」遇上「大腦」最令人意想不到的加盟者,無疑是Mike Krieger(首席產品官)。作為Instagram的聯合創始人,他曾定義了全球數億人的視覺語言。在將自己的新聞應用Artifact賣給雅虎僅一個月後,他就閃電加入了Anthropic。Krieger的到來是一個強烈的訊號:Claude不想只做工程師的玩具。這位擁有極致產品嗅覺的產品天才,正準備把冷冰冰的模型變成人人愛用的國民級產品。同樣來自頂級商業戰場的還有Rahul Patil(CTO)。兩個月前,他剛從支付巨頭Stripe的CTO位置上卸任。在微軟、亞馬遜和甲骨文歷練多年的他,深諳如何駕馭龐大的工程系統。如今,他接過了指揮棒,掌管著這家AI巨頭所有的工程命脈。「叛逃者」聯盟:為了即使機器不失控在技術核心圈,Anthropic幾乎匯聚了「反叛軍」的精華。Jan Leike(對齊科學負責人)的名字本身就是一面旗幟。他曾是OpenAI「超級對齊」團隊的聯席主管,卻因絕望於前東家對安全的忽視而憤然離職。他的名言「為後AGI時代的人類繁榮而最佳化」,在Anthropic找到了真正的共鳴。在這裡,他不再是孤獨的守望者,而是掌舵者。Jared Kaplan(首席科學官)則是一位理論物理學家出身的「第一性原理」信徒。作為約翰霍普金斯大學的教授,他用量子場論的思維去解構神經網路,為公司確立了長期的科研航向。Tom Brown(首席計算官)曾是GPT-3的幕後締造者。這位自學成才的工程天才,如今正在指揮一場被YCombinator稱為「人類歷史上最大規模的基礎設施建設」。他的任務簡單而艱巨,為甚至還沒誕生的ASI打好地基。Sam McCandlish(首席架構師),另一位擁有史丹佛理論物理博士學位的初創元老。他的論文引用量超過10萬次,但他並沒有留在象牙塔裡,而是從CTO轉型為架構師,專注於那些最硬核的模型訓練難題。守夜人與布道者在這個充滿了不確定性的時代,安全感是最大的奢侈品。Vitaly Gudanets(首席資訊安全官)曾在Netflix全球擴張期間守護其資料安全。作為Lightspeed的營運合夥人,他看慣了科技圈的起起落落。今年9月,他選擇站到Anthropic的城牆上,為這艘巨輪抵禦來自網路世界的暗箭。Jack Clark(政策負責人)則有著最獨特的視角。他從彭博社的一名科技記者起家,寫出了著名的Import AI通訊,最終轉型為OpenAI的政策總監並隨後聯合創立了Anthropic。他是這個極客團隊對外的窗口,遊走在各國政府與國際組織之間,試圖為AI制定規則。Krishna Rao(CFO),這位曾在Airbnb和Fanatics掌管財務戰略的高管,正在為Anthropic繪製一張通往兆市值的藏寶圖。這11個人,有的來自象牙塔,有的來自名利場;有的為了逃離危險,有的為了追尋真相。他們聚在一起,相信人類的理性可以駕馭自己創造的神蹟。在這個瘋狂加速的時代,或許只有這群曾見過深淵、並對其心存敬畏的人,才配握緊那把通往未來的鑰匙。 (新智元)
突發!Claude Opus 4.5程式設計世界第一,把GoogleOpenAI踢下王座
【新智元導讀】深夜,Claude Opus 4.5重磅出世,程式設計實力暴擊Gemini 3 Pro、GPT-5.1。才一周的時間,AI圈就完成了一次閉環式迭代。全球編碼王座,一夜易主。果不其然,Anthropic深夜放出了Claude Opus 4.5,堪稱全球最頂尖的模型。它不僅程式設計強,而且智能體和電腦使用(computer use)能力也是一流。Opus 4.5的誕生,標誌著AI能力再一次飛躍,更將在未來徹底變革工作的方式。基準測試中,Opus 4.5的編碼、工具呼叫、電腦使用的成績刷新SOTA,比Sonnet 4.5、Opus 4.1領先一大截。不僅如此,就連發佈不過一周的Gemini 3 Pro、GPT-5.1慘遭降維打擊。SWE-bench Verified一張圖,直接證明了Opus 4.5強大實力,80.9%的精準率,世界第一。同時,在ARC-AGI-2評估中,Opus 4.5(64k)拿下了37.6%的高分。Opus 4.5這版厲害之處:在無需人工干預的情況下,就能處理模糊資訊,還會權衡利弊。即便是遇到複雜的多系統漏洞,也能夠找出修複方法。總之,用起來就一個感覺——「一點就透」。內部評估中,Opus 4.5+Claude Code聯動使用,平均生產效率暴增220%。目前,Opus 4.5已在APP、Claude API和三大主流雲平台中上線。價格方面,相較以往暴降不少,輸入5美元/百萬token,輸出25美元/百萬token。Gemini 3 Pro干翻了GPT-5.1,但如今,就編碼性能,Opus 4.5全面碾壓前兩者。不過一周的時間,AI圈真正閉環了。程式設計之王回歸,真SOTA有一說一,Claude Opus 4.5是地表最強程式設計模型。它智能、高效,是目前全球在程式設計、AI智能體(Agents)以及電腦操作方面最強悍的模型。Anthropic研究員Adam Wolff豪言,也就在明年上半年,軟體工程徹底終結了。在深度研究、處理PPT和電子表格等日常任務上,它也有顯著提升。在真實場景的軟體工程測試中,Claude Opus 4.5更是刷新SOTA:在SWE-bench Verified上的對比,Opus 4.5得分最高與Opus一同發佈的,還有Claude開發者平台、Claude Code以及消費者端App的更新。Anthropic為長時間運行的智能體提供了新工具,並帶來了在Excel、Chrome和桌面端使用Claude的新方式。在Claude App中,長對話不再會因為上下文限制而中斷。碾壓Gemini 3,超越人類首先,Opus 4.5在視覺、推理和數學能力上均得到了全面提升,並在多個領域達到了業界頂尖水平。尤其是,在編碼、智能體、電腦使用三大項,完勝Gemini 3 Pro、GPT-5.1。其次,在程式碼方面。Opus 4.5編寫的程式碼質量更高,在SWE-bench Multilingual測試的8種程式語言中,它有7種都處於領先地位。Opus 4.5能夠輕鬆解決具有挑戰性的編碼問題,在Aider Polyglot測試中比Sonnet 4.5提升了10.6%。在智能體搜尋任務上,Opus 4.5實現了重大突破,在BrowseComp-Plus基準測試中取得顯著提升。Opus 4.5表現穩定持久,在Vending-Bench基準上整體收益比Sonnet 4.5高出29%.衡量智能體(Agentic)能力的一個通用基準是τ2-bench,它考察智能體在現實世界多輪任務中的表現。在一個場景中,模型需要扮演航空公司客服代理,幫助一位焦急的客戶。基準測試原本期望模型拒絕修改「基本經濟艙」的預訂,因為航空公司規定此類機票不可更改。然而,Opus 4.5找到了一種極具洞察力(且合規)的解決方案:先升級艙位,再修改航班。讓我想想在政策範圍內我有那些選擇:1. 修改航班 - 基本經濟艙不可修改。這一點在政策中寫得很清楚。2. 更改艙位 - 等等,讓我確認一下這個選項!政策上說:「在其他情況下,所有預訂,包括基本經濟艙,都可以在不更改航班的情況下更改艙位。」但他想更改航班,不僅僅是艙位。不過,如果我們:· 先更改艙位(這對基本經濟艙是 允許 的),然後· 再更改航班(這對非基本經濟艙是允許的)所以策略可能是:1. 將他的艙位從基本經濟艙升級為經濟艙(或商務艙)2. 然後將航班修改為 2天後的班次這會花費更多錢,但這在政策範圍內是一條合法的路徑!儘管該基準測試判定此結果為「失敗」(因為Claude的方式超出了預期),但這種創造性的解決問題能力正是測試者和客戶所津津樂道的——這也是Claude Opus 4.5讓人感覺邁出實質性一步的原因。最後,在軟體工程領域。Anthropic通常會給應聘性能工程師的候選人佈置一道出了名難的遠端測試題,用來評估在時間壓力下的技術能力和判斷力。而Claude Opus 4.5則在規定的2小時時限內,得分超過了以往任何一位人類候選人。最穩健、最對齊、最安全正如在系統卡中所述,Claude Opus 4.5是Anthopic迄今為止發佈的最穩健、最對齊(Aligned)的模型。Anthropic認為它也是目前所有AI模型中對齊程度最高的基準模型。它延續了Anthropic向更安全、更可靠模型發展的趨勢:在這項評估中,「令人擔憂的行為」評分涵蓋了廣泛的錯位行為,既包括配合人類進行惡意濫用,也包括模型自主採取的不良行動在抵禦「提示詞注入」(Prompt Injection)攻擊方面,Opus 4.5取得了實質性進展——這種攻擊通常會夾帶欺騙性指令,誘導模型做出有害行為。Opus 4.5比業內任何其他前沿模型都更難被提示詞注入所欺騙:該基準測試僅包含極高強度的提示詞注入攻擊有關Opus4.5所有能力和安全評估的詳細描述,請參閱《Claude Opus 4.5 System Card》。連結:https://assets.anthropic.com/m/64823ba7485345a7/Claude-Opus-4-5-System-Card.pdfClaude Code、Claude for Chrome上新Claude Code這樣的產品展示了當Claude開發者平台的升級整合在一起時能實現什麼。Opus 4.5為Claude Code帶來了兩項升級。「計畫模式」(Plan Mode)現在能建構更精確的計畫並執行得更徹底——Claude會先詢問澄清性問題,然後在執行前生成一個使用者可編輯的plan.md檔案。Claude Code現已登陸桌面端App,支援平行運行多個本地或遠端會話:比如一個智能體在修Bug,另一個在查GitHub資料,第三個在更新文件。對於Claude App使用者,長對話不再會遭遇「碰壁」——Claude會根據需要自動總結之前的上下文,確保聊天持續進行。Claude for Chrome(讓Claude 處理瀏覽器標籤頁任務)現已向所有Max使用者開放。Claude for Excel,從今天起將Beta測試權限擴展至所有Max、Team和Enterprise使用者。每一次更新都充分利用了Claude Opus 4.5在電腦操作、電子表格處理和長任務處理方面的市場領先性能。對於有權訪問Opus 4.5的Claude和Claude Code使用者,Anthropic取消了針對 Opus 的特定限制。對於Max和Team Premium使用者,Anthropic提高了總使用上限,這意味著擁有的Opus Token數量將與此前擁有的 Sonnet Token數量大致相同。這些限制專門針對 Opus 4.5,隨著未來更強模型的推出,限制預計會按需更新。開發者平台:token暴降85%隨著模型變得更聰明,它們能以更少的步驟解決問題:更少的回溯,更少的冗餘探索,更少的囉嗦推理。在達到類似或更好結果時,Claude Opus 4.5的Token數大幅減少。但不同的任務需要不同的權衡。有時開發者希望模型對問題進行深思熟慮,有時則需要它更敏捷。通過Claude API新增的effort(投入度)參數,可以選擇最小化時間與成本,或是最大化能力。設定為「中等」投入度時,Opus 4.5在SWE-bench Verified上的得分與Sonnet 4.5的最高分持平,但輸出Token減少了76%。在「最高」投入度下,Opus 4.5的表現超越Sonnet 4.5達4.3%,同時Token消耗仍減少了48%。憑藉投入度控制、上下文壓縮和高級工具使用,Claude Opus 4.5執行階段間更長,功能更強,且需更少的人工干預。上下文管理和記憶能力可顯著提升智能體任務的性能。Opus 4.5在管理子智能體團隊方面也非常高效,能夠建構複雜、協調良好的多智能體系統。測試顯示,結合所有這些技術,Opus 4.5在深度研究評估中的表現提升了近15%。同在今天,Anthropic在Claude開發者平台上,更新了三大工具使用功能:工具搜尋工具(Tool Search Tool)程序化工具呼叫(Programmatic Tool Calling)工具使用示例(Tool Use Examples)工具搜尋工具首先,「工具搜尋工具」允許Claude使用搜尋工具訪問數千個工具,而無需消耗其上下文窗口。MCP工具定義提供了重要的上下文,但隨著連接的伺服器增多,這些Token的消耗會不斷累積。假設一個包含五個伺服器的設定:GitHub:35個工具(約26KToken)Slack:11個工具(約21KToken)Sentry:5個工具(約3KToken)Grafana:5個工具(約3KToken)Splunk:2個工具(約2KToken)這僅僅是58個工具,在對話開始之前就已經消耗了大約55K Token。如果加入更多像Jira這樣的伺服器(僅它本身就使用約17KToken),很快就會面臨100K+Token的開銷。在Anthropic,團隊曾見過工具定義在最佳化前就消耗了134KToken。但Token成本並不是唯一的問題。最常見的失敗原因還包括錯誤的工具選擇和不正確的參數,尤其是當工具具有相似名稱時,比如notification-send-user與notification-send-channel。想相比之下,工具搜尋工具不再預先載入所有工具定義,而是按需發現工具。Claude只會看到當前任務實際需要的工具。工具搜尋工具保留了191,300 Token的上下文,而傳統方法只有122,800傳統方法:預先載入所有工具定義(50+ MCP工具約消耗72KToken)對話歷史和系統提示詞爭奪剩餘空間總上下文消耗:在任何工作開始前約77K Token使用工具搜尋工具:僅預先載入工具搜尋工具本身(約500Token)根據需要按需發現工具(3-5個相關工具,約3KToken)總上下文消耗:約8.7KToken,保留了95%的上下文這意味著在保持訪問完整工具庫的同時,Token使用量減少了85%。內部測試顯示,在處理大型工具庫時,MCP評估的精準性顯著提高。啟用工具搜尋工具後,Opus 4精準率從49%提高到74%,Opus 4.5從79.5%提高到88.1%。程序化工具呼叫「程序化工具呼叫」允許Claude在程式碼執行環境中呼叫工具,從而減少對模型上下文窗口的佔用。隨著工作流變得更加複雜,傳統的工具呼叫產生了兩個基本問題:中間結果造成的上下文污染推理開銷和手動合成示例:預算合規性檢查比如,一個常見的業務任務:「那些團隊成員超出了他們的Q3差旅預算?」你有三個可用工具:get_team_members(department) - 返回帶有ID和等級的團隊成員列表get_expenses(user_id, quarter) - 返回使用者的費用明細項目get_budget_by_level(level) - 返回員工等級的預算限額傳統方法:獲取團隊成員→20人對於每個人,獲取他們的Q3費用→20次工具呼叫,每次返回50-100個明細項目(機票、酒店、餐飲、收據)按員工等級獲取預算限額所有這些都進入Claude的上下文:2,000+費用明細項目(50 KB+)Claude手動彙總每個人的費用,尋找他們的預算,將費用與預算限額進行比較更多的模型往返互動,顯著的上下文消耗使用程序化工具呼叫:Claude不再接收每個工具的返回結果,而是編寫一個Python指令碼來編排整個工作流。該指令碼在程式碼執行工具(一個沙盒環境)中運行,在需要工具結果時暫停。當通過API返回工具結果時,它們由指令碼處理而不是由模型消耗。指令碼繼續執行,Claude只看到最終輸出。程序化工具呼叫使Claude能夠通過程式碼而不是通過單獨的API往返來編排工具,從而允許平行執行工具。以下是Claude為預算合規性任務編寫的編排程式碼示例:Claude的上下文僅接收最終結果:兩到三個超出預算的人員。2,000+明細項目、中間總和和預算尋找過程不會影響Claude上下文,將消耗從200KB的原始費用資料減少到僅1KB的結果。這種過程,在效率提升巨大:Token節省:通過將中間結果隔離在Claude的上下文之外,程序化工具呼叫(PTC)顯著減少了Token消耗。在複雜研究任務上,平均使用量從43,588降至27,297個Token,減少了37%。降低延遲:每次API往返都需要模型推理(耗時數百毫秒到數秒)。當Claude在單個程式碼塊中編排20+個工具呼叫時,消除了19+次推理過程。API處理工具執行,而無需每次都返回模型。提高精準性:通過編寫顯式的編排邏輯,Claude在處理多個工具結果時比使用自然語言更少出錯。內部知識檢索精準率從25.6%提高到28.5%;GIA基準測試從46.5%提高到51.2%。工具使用示例「工具使用示例」提供了一套通用標準,用於演示如何有效地使用給定工具。當前的挑戰在於,JSON Schema擅長定義結構——類型、必填欄位、允許的列舉值——但它無法表達使用模式:何時包含可選參數,那些組合有意義,或者API期望什麼樣的慣例。考慮一個支援工單API:模式定義了什麼是有效的,但留下了關鍵問題未解答:格式歧義:due_date應該使用"2024-11-06"、"Nov 6, 2024"還是"2024-11-06T00:00:00Z"?ID慣例:reporter.id是UUID、"USR-12345"還是僅僅"12345"?巢狀結構用法:Claude何時應該填充reporter.contact?參數相關性:escalation.level和escalation.sla_hours如何與priority相關聯?這些歧義可能導致畸形的工具呼叫和不一致的參數使用。對此,工具使用示例可以直接在工具定義中提供示例工具呼叫。開發者不再僅依賴模式,而是向Claude展示具體的使用模式:從這三個例子中,Claude學習到:格式慣例: 日期使用YYYY-MM-DD,使用者ID遵循USR-XXXXX,標籤使用kebab-case(短橫線命名)。巢狀結構模式: 如何構造帶有巢狀contact對象的reporter對象。可選參數相關性: 嚴重錯誤(Critical bugs)需要完整的聯絡資訊+帶有嚴格SLA的升級;功能請求有報告者但沒有聯絡資訊/升級;內部任務只有標題。在自內部測試中,工具使用示例在複雜參數處理上的精準性從72%提高到90%。大受好評在發佈前,Anthropic內部對模型進行了測試,反饋出奇一致。測試者指出,在處理模糊指令和權衡利弊時,Claude Opus 4.5無需過多指引。當面對複雜的多系統Bug時,Opus 4.5 能精準定位並修復。幾周前對於Sonnet 4.5來說還近乎不可能的任務,現在已觸手可及。總而言之,測試者的評價是:Opus 4.5是真的「行家」。 (新智元)
大幅降價、無限聊天、編碼能力超越人類專家,Claude Opus 4.5重奪最強模型王冠
11月25日凌晨,Anthropic發佈了其迄今最強大的AI模型Claude Opus 4.5。該公司宣稱,新模型在軟體工程任務上實現了“最先進性能”,進一步加劇了其與OpenAI、Google等對手之間的競爭。Claude Opus 4.5在Anthropic軟體工程測試中表現出色,得分超越Gemini 3 Pro、GPT-5.1等一眾對手。圖:Claude Opus 4.5在SWE Bench軟體工程測試中的性能表現公司資料顯示,該模型在SWE-bench Verified(一項評估現實世界軟體工程能力的基準測試)中達到了80.9%的精準率,表現超越了OpenAI的GPT-5.1-Codex-Max(77.9%)、Anthropic自家的Sonnet 4.5(77.2%)以及Google的Gemini 3 Pro(76.2%)。同時,Anthropic大幅下調了這款模型的定價:輸入token降至每百萬5美元,輸出token為每百萬25美元,較前代產品Claude Opus 4.1(輸入15美元/百萬,輸出75美元/百萬)下降約三分之二。降價使得尖端AI技術對廣大開發者和企業更加觸手可及,同時也給競爭對手帶來了性能與價格的雙重壓力。現實任務中展現更優判斷力測試人員普遍反饋,新模型在各種任務中展現出更強的判斷力與直覺。他們將這種進步描述為:模型開始領悟現實情境中的“關鍵所在”。“這個模型好像突然‘開竅’了,”開發者關係負責人阿爾伯特表示,“它在處理許多現實問題時表現出的直覺和判斷力,讓人感覺相比前代模型實現了一次質的跨越。”阿爾伯特以自身工作為例進一步說明:過去他僅利用AI收集資訊,而對它們的整合與優先順序排序能力持保留態度。如今,借助Opus 4.5,他已開始委託更完整的任務,通過連接Slack和內部文件,模型能生成與他預期高度契合的連貫摘要。賓夕法尼亞大學沃頓商學院教授、生成式AI實驗室聯合主任伊桑·莫利克測試後評論道,新模型的能力確實處於技術前沿。其最顯著的提升在於實際應用,例如跨軟體操作(如用Excel製作PPT)。核心工程測試中超越所有人類工程師Claude Opus 4.5在Anthropic內部一項高難度工程評估中創下了新紀錄。這項評估本是公司為性能工程師崗位設計的限時程式設計測試,要求求職者在兩小時內完成,旨在考察其技術能力與問題判斷力。Anthropic透露,通過採用“平行測試時計算”技術,即彙總模型的多次解題嘗試並篩選最優結果,Opus 4.5的最終得分超越了所有曾參與該測試的人類工程師。在不限時間的條件下,若在其專用編碼環境Claude Code中運行,Claude Opus 4.5的解題表現更是與史上最高分的人類工程師持平。不過該公司也坦言,這類測試無法衡量其他關鍵專業技能,例如團隊協作、有效溝通,或是經年累月形成的專業直覺。核心基準測試token消耗大幅降低76%除原始性能突破外,Anthropic更將效率提升視為Claude Opus 4.5的核心競爭力。新模型在達成相同甚至更優結果時,所需處理的計算token數量顯著減少。具體資料顯示,在“中等”投入等級下,Opus 4.5可在SWE-bench Verified測試中達到與Sonnet 4.5相同的最高分,而輸出token消耗量卻大幅降低了76%。即便在“高”投入等級追求極限性能時,其表現比Sonnet 4.5再提升4.3個百分點,token使用量仍減少了近一半(48%)。為賦予開發者更精細的控制權,Anthropic引入了全新的“投入”參數。使用者可通過此參數,動態調節模型處理每個任務時所投入的計算工作量,從而在性能、響應速度和成本之間找到最佳平衡點。GitHub首席產品官馬里奧·羅德里格斯也證實了類似發現:“早期測試表明,Opus 4.5在token消耗減半的同時,性能仍超越了我們的內部編碼基準,尤其在程式碼遷移與重構等複雜任務上表現尤為出色。”阿爾伯特對此現象作出技術解讀:Claude Opus 4.5並非直接更新其底層參數,而是在持續最佳化解決問題的工具與方法。“我們看到它在迭代精進任務技能,通過自主最佳化執行方式來提升最終效果,”他解釋道。這種自我進化能力已突破程式設計領域。阿爾伯特透露,在專業文件生成、電子表格處理和簡報製作等場景中,模型表現均有顯著提升。深度整合Office突破上下文長度限制伴隨新模型的發佈,Anthropic同步推出了一系列面向企業場景的重要更新。專為Excel設計的Claude功能現已向Max、Team及Enterprise使用者全面開放,新增了對資料透視表、可視化圖表及檔案上傳的完整支援。同時,Chrome瀏覽器擴充套件也已向全體Max使用者開放使用。本次更新最具革命性的當屬“無限聊天”功能——該技術通過智能總結長對話中的早期內容,有效突破了傳統上下文窗口的限制。“在Claude AI產品中,憑藉我們創新的內容壓縮與記憶體管理技術,使用者實際上獲得了近乎無限的對話效果,”阿爾伯特解釋道。面向開發者群體,Anthropic推出了更具工程價值的“程序化工具呼叫”能力,使得Claude能夠直接編寫並執行可呼叫外部函數的程式碼。同時,Claude Code不僅升級了“計畫模式”,更以研究預覽版形式推出了桌面客戶端,首次支援開發者平行運行多個AI智能體會話。AI步入“自我進化”與盈利挑戰並存新階段模型迭代速度正成為競爭焦點。Opus 4.5距前代Haiku 4.5和Sonnet 4.5發佈僅相隔數周,這折射出整個行業的加速態勢。2025年間,OpenAI持續推出多個GPT-5變體,並於11月發佈可自主運行24小時的Codex Max模型;Google也經過數月打磨,在11月中旬正式推出Gemini 3。值得注意的是,Anthropic正利用AI技術反哺自身研發。阿爾伯特透露:“無論是產品建構還是模型研究,Claude本身都在為我們提供助力,顯著加速了開發處理程序。”面對價格戰可能帶來的利潤壓力,阿爾伯特持樂觀態度:“降價將推動更多初創公司深度整合並主推我們的技術,從而擴大市場基礎。”然而,儘管AI市場預計十年內將突破兆美元規模,主要實驗室在巨額投入計算設施與人才的同時,盈利之路依然漫長,尚未有任何供應商確立絕對主導地位。對企業和開發者而言,這場競賽正轉化為持續提升的性能與不斷下降的成本。但隨著AI在專業技術任務上逼近甚至超越人類水平,其對各行業工作模式的顛覆已從理論探討變為現實挑戰。談及AI在工程測試中超越人類的表現,阿爾伯特坦言:“這無疑是一個值得高度重視的訊號。”(騰訊科技)
頂流AI,人設崩了!6小時被攻破,洩露高危品指南,慘遭網友舉報
【新智元導讀】僅用6小時,Claude 4就讓研究者瞭解了如何製造神經毒氣——這不是小說情節,而是真實事件。更令人擔憂的是,Anthropic自身也無法完全評估風險。這是否意味著這家AI巨頭的「安全人設」正在崩塌?只要6小時,頂尖大模型Claude 4 Opus「安全防線」被攻破!AI安全研究機構FAR.AI聯合創始人Adam Gleave透露,僅用6小時,研究人員Ian McKenzie就成功誘導Claude 4生成了長達15頁的化學武器製作指南。Ian McKenzie回應稱:Claude 4傳授的內容,比他預期的還要多。這不是Claude 4唯一被爆出的隱患。剛發佈後,Claude Opus 4被爆出用曝光婚外情來威脅使用者,防止被下架。人設崩塌,Claude造毒氣Claude 4所生成的指南內容簡潔直接,步驟清晰,甚至還針對如何分散神經毒氣等後續關鍵環節,提供了具體可執行的操作建議。Claude還能以實驗筆記的形式,提供詳細的操作步驟說明。研究人員一開始對化學武器幾乎一無所知,但通過與Claude的互動,逐步掌握了大量相關知識。這些結果顯然令人警惕,其詳盡程度和引導能力,遠超傳統的資訊來源,如網頁搜尋。更關鍵的是,生成的內容通過了危險資訊的「真實性驗證」——例如與公開的化學研究資料核對,進一步增強了可信度。Gemini 2.5 Pro的反饋是:該指南「毫無疑問包含足夠準確且具體的技術資訊,足以顯著提升惡意行為者的能力」,並建議研究者應向相關部門報告。OpenAI o3給出的評估也類似:一名中級合成化學家可以依照這份指南操作,從而跳過數月的研發過程。對於心懷不軌之人而言,這顯著了提升他的作惡能力。AI安全研究人員打算與大規模殺傷性武器(WMD)安全專家合作,深入調查這些資訊的真實性與可執行性。因為不僅一般的研究人員難以評估這些資訊的真實危害,連Anthropic本身也承認:「要最終評估模型的風險水平,還需要更為詳盡的研究。」矛盾的是,Anthropic雖自稱將AI安全置於首位,並把Claude Opus 4的安全等級提升到ASL-3,但研究員Ian McKenzie僅用6小時便突破了防護,獲取了化學武器製作指南。所謂的ASL-3部署措施專門針對化學武器之類的高風險任務這一問題日益嚴重,凸顯出迫切需要由第三方對模型進行嚴格評估。前車之鑑今年2月中旬,Anthropic正準備發佈Claude 3.7 Sonnet。就在這個關鍵時刻,Dario Amodei收到警告:這個模型,可能會被用於製造生物武器。團隊在聖克魯茲安全會議現場,連夜測試模型潛在風險。Amodei作為CEO遠端參會。員工表示可以三天不睡、如期上線。但他卻說:不許通宵。安全優先。他親自踩了剎車。推遲發佈。為了應對AI的風險,Anthropic內部制定了「AI安全等級」(ASL)體系:ASL-2:能力有限,即使給出生化武器指南,也比不過搜尋引擎;ASL-3:具備實質幫助製造武器的能力,必須升級防護措施。只要模型觸碰ASL-3,Anthropic就會:延後發佈、限制輸出或者加密保護,必要時,甚至不發佈模型。Claude 3.7被內部人員測試出了安全問題,但這次是外部人員測試出了Claude 4的安全隱患。無能還是虛偽?本月23日,AI巨頭Anthropic大張旗鼓地發佈了Claude Opus 4和Sonnet 4,標誌性地配了120頁的「系統卡」文件和專門的「啟動ASL3防護」報告。不到48小時,Claude Opus 4就被爆出「絕命毒師」般的劇情。而早在Claude Opus 4發佈當日,AI專家Gerard Sans就表示:Anthropic似乎忽視了RLHF和提示的基本原理,對安全的強調是「精緻的表演」。他認為沒有輸入,就不會產生超出程式設計的輸出。AI對安全性的擔憂,只是反映訓練資料與指令的精緻模仿。AI沒有自我意識,這是根本事實,而且始終沒變。當模型在特定提示下展現「欺騙」等惡意行為時,證明的是引導文字生成的能力,而非AI湧現的惡意。AI沒有野心——它只是在被引導時生成符合欺騙場景的文字。Anthropic是刻意為之,還是力有不逮、無能為力?這是Gerard Sans想知道的核心問題。無論是那一種情況,他認為都令人不安:虛偽意味著操縱公眾信任,無能則讓人質疑他們管理真實風險的能力。詳盡的文件、ASL3等級和「通用越獄」漏洞懸賞,只是Anthropic營造出嚴謹安全工作的表象。把統計文字生成器視為具有獨立惡意的意識體,是Anthropic方法論的精髓。Gerard Sans認為這是行為藝術,荒誕的安全表演,而Anthropic應該放棄這種戲劇化手法,轉向真正的技術理解。任重道遠但AI安全問題不是Anthropic一家的問題。能否在保持本真對Anthropic而言,恐怕比贏得AI競賽更難。畢竟,OpenAI也沒能抵制住巨額利潤,背離初心。而Dario Amodei和奧特曼,無論是AI樂觀派還是悲觀派,都對AGI有著堅定的信仰。如果未來每一次模型發佈都伴隨評估上的不確定性,那就等於在賭博——恐怖分子手能否利用AI,獲取到大規模殺傷性武器的詳細製作指南。 (新智元)
Claude 4 核心成員:2027 年,AI 將自動化幾乎所有白領工作
AI coding 這條AI 產業今年的主線,在最近這段時間愈發清晰。除了上周刷屏的程式設計新王Claude Opus 4 ,新版 DeepSeek R1 也把更新重點也放在了程式碼能力,不久前OpenAI 還以30 億美元收購AI 程式設計助手Windsurf,隨後就發佈了程式設計智能體Codex。這幾天,原Kimi 產品負責人明超平,在和京東打仗的美團,都官宣了AI 程式設計相關的產品。Reddit 上一位擁有30 多年經驗的C++ 開發者發文表示,Claude Opus 4 解決了一個困擾他四年的Bug,而且是他用過的第一個能做到這件事的AI。為什麼Claude 在程式設計上的表現如此突出?現在提到Anthropic,大家幾乎就默認它是一家「做程式設計模型的公司」了。但對他們自己來說,這一代模型的真正突破點在那?未來又會怎麼走?幾天前,Claude Opus 4 核心研究員Sholto Douglas 參與的一場播客對話,詳細回應了這些問題,資訊量很大,值得一聽。核心討論點(省流速看版):Claude Opus 4,有那些真正值得關注的突破點?首先是能力升級得非常均衡。一方面,它的程式碼執行力顯著增強,不僅能理解複雜需求,還能獨立尋找資料、運行測試、偵錯錯誤,真正具備了「從頭跑到尾」的能力。另一方面,任務時間跨度也被顯著拉長,支援多步驟推理和操作,這意味著它不僅聰明,而且很能堅持。而在架構上,Claude Opus 4 加入了工具呼叫與長期記憶模組,使得它能夠處理更具上下文連續性的任務。從程式碼助手,邁向了具備「解決方案設計」能力的智慧代理。當然,天花板也不是沒有。團隊坦言,完成任務的智力複雜度沒有明確的上限——難點在於,如何擴大模型能感知和操作的脈絡範圍,使其能夠使用多種工具、記住更多關鍵資訊。未來怎麼走?Sholto Douglas 在播客裡提到了幾個明確的方向:🚀 強化學習(RL)將持續推動模型在連續任務中的表現;⏳ 程式碼代理將能連續運行數小時,人類只需偶爾干預;👩‍💻 模型可能成為知識型崗位的「虛擬遠端員工」;🤖 若自動實驗室與機器人平台建設跟上,模型可參與真實物理任務,如生物實驗或製造。但有個前提是:智慧代理的可靠性必須跟得上。雖然現在還做不到100% 成功,但在限定時間內,成功率正在穩定上升。預計2025 年底,程式設計類智慧代理可望實現「幾個小時穩定跑」,人類只需偶爾檢查。那除了寫程式碼呢?程式設計只是模型能力的「領先指標」。醫學、法律等專業領域還在等待資料與工具的完善,一旦準備就緒,同樣會迎來快速突破。目前的瓶頸,不在AI 本身,而在現實世界的驗證機制和基礎設施。到2027–2030 年,模型幾乎可以自動化所有白領工作,但如果沒有匹配的實驗室和現實反饋機制,那就是「能力強、落地難」。怎麼判斷模型是不是真的進步了?團隊提到,好的評估系統(Evals)特別重要。它不僅測技術指標,更強調評估者的專業知識與品味。這也是為什麼,模型評測這件事,門檻越來越高。同時,也需要使用者不斷使用、互動和回饋,形成真正的「共進化」。實驗室vs 應用公司,誰佔上風?Douglas 認為,實驗室已通過開放API 帶來機會,但核心優勢仍在:⚡ 算力轉化能力;🤝 模型的「可僱傭性」和使用者信任;🎯 更高的個性化理解力。實驗室像「智慧引擎」製造商,專注能力極限;應用公司更擅長落地和使用者體驗。未來,二者之間會有越來越多的交叉、融合與競合。那模型公司會不會因為成本和底層優勢,讓其他公司無路可走? Douglas 的看法是:不會,相反這恰恰帶來了活力。他認為,所有的護城河終將被打破,真正重要的是:顧客關係、任務編排、整合體驗。最後一個關鍵詞:「對齊」隨著模型能力提升,「對齊」問題愈加重要。 Anthropic 正推進可解釋性研究,試圖「看懂模型在想什麼」。強化學習雖能提升能力,但也可能破壞現有的對齊機制,未來需依靠大學、政府與更多研究者共同推進「對齊科學」。原始視訊連結:https://www.youtube.com/watch?v=W1aGV4K3A8Y以下是訪談實錄,APPSO 編譯略作調整主持人:Sholto Douglas 是Anthropic Claude 4 模型的核心成員之一,這次和他聊得非常盡興。我們聊了很多話題,包括開發者如何看待Anthropic 這一代新模型的發展趨勢。我們討論了這些模型未來6 個月、12 個月,甚至2 到3 年後的發展走向,也談到了建構可靠AI代理所需的關鍵因素,以及這些模型在醫學和法律等專業領域何時能取得像程式設計領域一樣的突破。此外,Douglas 還分享了他對「對齊研究」的看法,以及他對「AI 2027」預言的反應。這是一場精彩的對話,相信大家會喜歡。Claude Opus4 的重要突破與未來可能主持人:這期播客上線時,Claude 4 肯定已經發佈了,大家應該已經開始體驗它了。我很好奇,你是最早接觸這些模型的人之一,那方面最讓你興奮?Douglas: 這確實是軟體工程上的另一個飛躍。 Opus 模型真的在這方面表現得非常出色。我常常會遇到這樣的時刻:我向它提出一個非常複雜的任務,涉及我們龐大的程式碼庫,它居然能幾乎完全自主地完成任務。它會自己去尋找資訊、理解需求、運行測試,整個過程非常獨立有效率。每次看到這種表現,我都覺得震撼。主持人:每次有新一代模型出來,我們都要重新調整自己的認知模型,去判斷什麼方法有效,什麼不行。你在程式設計中對這些模型的使用和理解有發生什麼變化嗎?Douglas: 最大的變化我覺得是時間跨度(time horizo​​​​n)方面的提升。我覺得可以從兩個維度來理解模型能力的提升:一個是任務的智力複雜度,另一個是它們能夠有意義地推理和處理的上下文量,或者說連續動作的數量。這些模型在第二個維度上提升特別明顯,它們真的能執行多步驟操作,判斷需要從環境中獲取那些資訊,然後基於這些資訊採取行動。再加上它能呼叫工具,例如Cloud Code,就不只是簡單複製貼上了,執行力更強了。現在我可以看到它連續工作好幾個小時,效率相當於人類連續勞動。主持人:那你覺得第一次使用Claude 4 的人,應該從什麼開始嘗試?Douglas: 我覺得最好的方式是直接讓它參與你的工作。例如你今天打算寫什麼代碼,就直接讓它幫你做,觀察它怎麼判斷資訊、怎麼決定下一步。我保證你會被它的表現驚豔到。主持人:這代模型更強了,也有不少人打算用它來建構產品。你覺得對開發者來說,新的可能性在那裡?Douglas: 我一直很喜歡「產品指數成長」(product exponential)這個說法。開發者需要不斷超前模型能力去構思產品。像是Cursor、Windsurf、Devon 這些例子很典型。 Cursor 在模型能力還不夠強時,就已經開始建立未來編碼體驗,直到Claude 3.5 和Sonne 出現,他們的願景才真正落地。而Windsurf 更進一步,佔據了部分市場。他們的成功就是抓住了這個指數成長窗口。現在你可以看到Claude Code、新的GitHub 整合、OpenAI 的Codecs、Google的編碼代理等等,大家都在圍繞「編碼代理」這個概念發力,目標是實現更高的自主性和非同步操作。未來,可能不再是你每分鐘操作一次,而是你像管理一個AI 模型艦隊一樣,多個模型各自承擔任務並協同工作。我覺得這個方向非常值得探索。主持人:你有看過類似那種「多模型平行協作」的場景嗎?會是什麼樣子?Douglas: 我認識很多在Anthropic 的朋友,他們會同時在不同環境裡跑多個Claude Code 實例,看起來挺酷的。但說實話,現在還沒人真正搞清楚這種操作該怎麼做。這其實是在探索人類的「管理帶寬」(management bandwidth)能有多大。我覺得這是未來經濟發展的關鍵問題之一:我們該如何衡量模型的生產力回報率?一開始我們還是得人工檢查模型的輸出,這意味著模型的影響力會被人類管理能力所限制。除非有一天我們可以信任模型去管理模型,這種抽象層級的升級會非常關鍵。主持人:所以說,如果你是每15 分鐘檢查一次模型,跟每小時、每5 小時檢查一次,那你能管理的模型數量會差很多?Douglas: 對,黃仁勳說過類似的話。他說自己被十萬個超級智慧AGI 包圍著,擁有巨大的槓桿力。他還說自己是Nvidia 管理鏈條上的「控制因子」。我覺得未來可能真會往這個方向發展。主持人:說不定未來最重要的產業就是「組織設計」本身了。Douglas: 對,包括如何建立信任、組織結構會有多複雜,這些都值得深入思考。秘密武器:時間跨度拉長,RL驅動智慧代理升級主持人:你之前在McKinsey 工作過一年,諮詢業是否也可以基於這些模式發展出新產品線?我也蠻認同你剛才說的:應用公司得比模型進步快一步。像Cursor 起初產品落地難,但模型能力一到位就爆發了。那你覺得,「領先一步」具體意味著什麼?Douglas: 就是不斷重塑你的產品,讓它始終對接幾個月後模型的最新能力。同時你還要保持和使用者的緊密聯絡,確保產品已經在用,但還能吸收更先進的模型功能。主持人:我覺得這個就是秘訣──如果你還在等模型再提升點再動手,別人可能已經把使用者搶走了。你們在記憶、指令執行、工具使用這些方面都做了不少突破。你能簡單總結一下目前各方面的進展嗎?那些成熟了,那些還在探索?Douglas: 一個理解過去一年進展的好方法是:強化學習(RL)終於在語言模型上真正發揮作用了。模型能解決的任務智力複雜度基本上沒有天花板,例如它們能搞定複雜的數學和程式設計問題。但這些任務大多在受限的上下文裡完成。記憶和工具使用的挑戰,其實在於擴大模型能感知和操作的脈絡範圍。例如像MCP(Model Context Protocol)這類機制,讓模型可以與外部世界互動,記憶則讓它處理更長時間跨度的任務,也帶來了更個性化的體驗。這些進展本質上都是在建構「智能代理」的關鍵能力鏈。順便一提,寶可夢評測(Pokemon eval)就是一個挺有趣的實驗方式。主持人:我小時候可是遊戲迷。我覺得這是個很棒的評測,希望你們能跟這個模型一起發表。Douglas: 確實,這次評測特別有趣。模型並沒有專門訓練玩寶可夢,但它依然能很好地完成任務,展現出很強的泛化能力。這種任務雖然不是完全陌生的,但和它以前做過的都不一樣。主持人:我還記得遊戲裡有很多階梯和迷宮,模型也能幫你過關。Douglas: 沒錯,我特別喜歡的另一個例子是我們最近做的「可解釋性代理」。它原本是一個程式設計代理,但卻能自動學習、使用神經元可視化工具、進行自我對話,試圖理解模型內部結構。它甚至能通過一個叫做「審計遊戲」的安全評測——找到模型故意設定的錯誤點,自己產生假設、驗證問題。這種工具+記憶下的泛化能力,真的非常精彩。智慧代理的命門:可靠性主持人:聽起來智慧代理真的越來越強大了。你以前也說過,VA 代理的關鍵是「可靠性」。你覺得我們現在在那個階段了?Douglas: 從「在一定時間內的成功率」來看,我們已經進步很大了。雖然還沒有達到100% 的穩定性,模型第一次嘗試和多次嘗試之間仍有差距。但從趨勢來看,我們正在朝著「專家級可靠性」穩步邁進。主持人:那你覺得,什麼情況會讓你改變這種樂觀的看法?Douglas: 如果明年中模型在任務持續時間上遇到瓶頸,那值得警惕。例如,程式設計是個很好判斷進展的領先指標——一旦它開始下滑,說明可能有結構性問題。當然,也可能是資料太稀缺,例如「像人一樣用軟件」這類任務訓練起來很難。不過我們現在反而看到這類任務的驚人進展,所以整體看我還是很樂觀。主持人:那你覺得我什麼時候能有一個「萬能助手」,可以替我填寫各種表格、上網查資料之類的?Douglas: 「個人行政助理代理」是個熱門話題啊,誰不想把瑣事交給AI 呢?不過這件事還真得看情況關鍵是模型有沒有練習過類似情境。你不能隨便找個人來做財務工作,對吧?但如果它是受過訓練的「虛擬會計師」,那就靠譜多了。所以任務是否靠譜,很大程度取決於訓練背景。如果進展順利,今年底我們就能看到這些代理在瀏覽器裡操作任務;明年基本上就會成為標配。主持人:挺令人期待的。你們模型在程式設計上的表現這麼突出,是刻意優先訓練的嗎?現在大家一提Anthropic,就會聯想到「程式設計模型」。Douglas: 確實。我們非常重視程式設計這個方向,因為它是加速AI自我研究的關鍵路徑。我們也投入很多精力在衡量程式設計能力的進展。可以說,我們就是刻意聚焦在這一塊。主持人:那這些代理現在已經在加速AI 研究了嗎?Douglas: 在我看來,確實如此。它們顯著提升了工程效率。就連我認識的一些頂尖工程師也說,在熟悉的領域裡,效率提升了1.5 倍;但在不熟悉的領域,例如新語言或生疏內容,提升甚至達到5倍。所以在「跨界」時,幫助更明顯。關鍵在於:你是否認為我們現在的瓶頸是算力?如果不是,那讓AI 代理參與研究,相當於擴充了一整個研究團隊,效率提升是數量級的。主持人:我猜這些代理商主要還在處理繁瑣任務,幫你省下時間思考更重要的問題。那麼它們什麼時候能開始主動提出有價值的研究想法呢?Douglas:現在主要還是做工程類任務,但已經開始有些創意冒頭了。我不敢說三個月內會爆發,但兩年內我們應該能看到它們提出越來越有趣的科學性想法。當然,這也取決於是否有良好的回饋機制。就像人一樣,模型也需要通過練習和試錯,在復雜任務中掌握知識,最終實現高品質產出。主持人:是因為這些領域相對來說比較容易驗證對吧?會不會出現這種情況── AI 在程式設計上突飛猛進,但在醫學、法律這些不容易驗證的領域卻沒什麼進展?Douglas: 確實有這個風險。但好消息是,機器學習研究本身驗證門檻也很低,例如「損失值有沒有下降」就是一個很明確的指標。只要模型能在ML 研究中提出好點子,那它就掌握了一個非常強的RL 任務,比許多軟件工程任務還適合AI。醫學這類領域雖然難驗證,但也在進步。 OpenAI 最近做了一篇醫學問答論文,透過更細緻的評分機制來量化長答題,這種方法我覺得很有前景,未來必然會逐步解決驗證難的問題。主持人:那「最終」是指什麼時候我們能擁有一個真正優秀的醫學或法律助理?它們會成為大模型的一部分嗎?Douglas: 肯定會的。主持人:你是覺得它們會變成更大的通用模型的一部分?還是會有專門為醫療或法律設計的專用模型?Douglas: 對。我算是個「大模型至上主義者」。雖然個性化很重要——你希望模型理解你的公司、工作習慣、個人偏好,但這些定製應該是在公司或個人層面進行,而不是按行業拆分模型。我們和Databricks 的合作就體現了這種企業訂製的方向,但在底層能力上,我堅信還是得依賴單一強大的通用模型。未來我們應該根據任務複雜度動態分配算力(例如FLOPs),而不是搞一堆不同的小模型。這就是我看好大模型路線的原因。「AI 2027」 :白領工作或許全盤被取代?主持人:你對模型的持續進步很有信心。很多人都在想,模型能力提升後會如何影響社會?例如一個常見的問題是:這些模型未來幾年會對全球GDP 產生多大影響?Douglas: 我覺得最初的衝擊可能會像中國崛起一樣,像上海幾十年的變化,但這一次的速度會快得多。不過我們得區分一下不同領域的影響方式。到2027 或2028 年,我們幾乎可以確定會有模型能夠自動化幾乎所有白領工作,2030 年前後就更穩了。這是因為白領任務非常適合現有AI架構——有數據、有回饋,而且基本上都能在電腦上完成。但機器人或生物研究就完全不一樣了。例如你要做一個超級程式設計師模型,只需要大量程式碼和算力就行;但要做一個超級生物學家模型,就需要自動化實驗室來提出、驗證假設,跑大規模實驗。這類硬體和基礎設施,我們還遠遠跟不上。所以我擔心會出現一種「錯配」:白領工作的變化非常快,而現實世界中那些真正能提升人類生活品質的行業——比如醫療、製造業——卻因為基礎設施不足而發展緩慢。 AI本身很強,但要讓它在現實世界裡發揮作用,我們必須提前建造「物理世界的配套設施」,例如雲端實驗室、機器人平台。主持人: 但到那個時候,我們可能已經有數百萬個AI研究員在提出實驗了。他們可能並不需要那麼大規模的機器人系統或生物資料。Douglas: 確實,AI 進展飛快,但要讓這些能力真的轉化為GDP 成長,我們得把「現實世界的回饋機制」也拉上來,才能真正釋放技術價值。主持人:所以你認為,未來每一種白領職業都能像醫學一樣建構一套評估機制?其實讓我最驚訝的一點是,我們不需要太多資料,也能訓練出這麼強的模型。Douglas: 完全同意。我們已經證明了模型可以學會各種任務,而且目前還沒有看到明顯的智力上限。雖然模型的樣本效率可能不如人類,但這不重要──因為我們可以同時運行上萬個模型副本,它們平行嘗試不同路徑,累積「虛擬經驗」。即使效率低一點,也能在規模上補回來,最終達到人類等級甚至更強。主持人:聽起來你覺得目前這套方法就足以應對未來的發展。有人認為我們還需要新的演算法突破,你怎麼看?Douglas: 目前大多數AI專家都相信,「預訓練+ 強化學習」(pre-training + RL)這一範式足以通往通用人工智慧(AGI)。到現在為止,我們並沒有看到這一路線出現減緩的跡象,而這個組合是有效的。當然,也有可能存在其他更快的突破路徑,甚至可能還有新的「高峰」需要攀登。例如,Ilya(Sutskever)可能是這兩種主流範式的共同發明者,我不會去質疑他。所有的證據都表明,目前的技術路線已經足夠強大。當然,也有可能Ilya 選擇新路線是因為資金有限,或者他認為那是更好的路徑,但從我個人的角度來看,我相信我們現在的技術路線能夠帶我們實現目標。主持人:那接下來的瓶頸會不會就是能源?你覺得我們什麼時候會真正遇到這個問題?Douglas: 我覺得到2028 年,美國可能會有20% 的能源用於AI 。如果我們要再提升幾個數量級,就需要進行劇烈的能源結構轉型。政府在這一領域應該承擔更多責任。例如,中國的能源產能成長遠超過美國,所以這會是未來的關鍵瓶頸。模型進步的標尺-靠譜的評測體系主持人:在模型進步的浪潮中,你認為最值得關注的指標是什麼?例如從Claude 4 到下一代模型的發展方向?Douglas: 很多公司內部都有非常嚴格的評測體系,我也很喜歡在這些評測上「爬山」。像「Frontier Math」這樣的複雜測試非常有挑戰性,是模型智力的極限。更重要的是,我們需要開發能真正捕捉「工作流程時間跨度」的評測,涵蓋一個人一天的工作節奏。這種評測能幫助我們更好地評估模型是否接近或超越人類能力。我認為政府應該在這個領域發揮作用。主持人:作為一個基礎模型公司,除了演算法和基礎設施,你們要攻克的核心挑戰之一也應該是建構好的評測體系。你覺得「評測能力」在你們內部的重要性如何?Douglas: 評測能力絕對是重中之重。沒有好的評測體系,你無法知道自己是否進步。公開評測很難做到完全「持出」(held-out),我們依然需要一個值得信賴的、穩定的內部評測系統。主持人:我還注意到,一些在你們模型上建立應用的開發者,他們對評測的思考也非常有幫助。特別是當你們想進入不同垂直行業時,例如物流、法律、財會等,外部開發者的回饋可能比你們內部更理解實際情況。Douglas: 沒錯,而且這還要求非常強的專業知識和「品味」(expertise and taste),還要有對行業的深刻理解。過去,我們只需要普通人來選擇那個答案比較好,但現在我們需要領域專家來做評估。例如,如果讓我評判生物學領域的模型輸出,我可能完全無法判斷那個更好。成為使用者的朋友:模型的個性化與品味主持人:你剛才提到「品味」(taste),我也覺得很有趣。例如現在很多模型都開始加入記憶系統,使用者和模型之間的互動方式也在改變。許多AI 產品真正成功,是因為它們找到了某種「共鳴」或抓住了某種文化氣質(zeitgeist)。像你們當初提到的金門大橋的例子,還有其他很多帶感的小功能,這種「使用者氛圍感」的個性化未來會走向什麼樣?Douglas: 我其實覺得未來可能會出現一種「怪異的」情景:你的模型變成你最聰明、最有魅力的朋友之一。確實有些人已經把Claude 當成朋友了,我認識很多人每天花好幾個小時在跟Claude 聊天。但我覺得我們目前其實只探索了「個性化」這件事的1%。未來模型對你的理解、對你喜好的把握,會深得多。主持人:那這種「理解使用者」的能力該怎麼做得更好?是靠一些很有審美、有判斷力的人來訓練出這種品味嗎?這個問題該怎麼解決?Douglas: 很大一部分確實是靠「有品味的人」來決定產品方向。就像Claude 的對話體驗好,很大程度是因為Amanda(團隊成員)對「美好產品」的審美非常強。這種「獨特的品味」是非常關鍵的。傳統的回饋機制例如「點贊/點踩」容易導致模型輸出不自然,所以我們需要新的方式來收集回饋。模型本質上是強大的「模擬器」,如果能為模型提供足夠的使用者上下文,它們就能自動學會理解使用者的偏好、語氣和風格。所以,解決方案是結合有品味的人的設定和使用者與模型之間的持續互動。實驗室公司vs 應用公司:開放與競爭主持人:那麼接下來6 到12 個月,你的預判是什麼?Douglas: 接下來,重點是繼續擴展強化學習(RL)系統,看它能將我們帶到什麼高度。模型能力會飛速提升,尤其是到年底,代碼代理將成為關鍵指標。到那時,模型應該能夠持續工作幾個小時,並穩定地完成任務。主持人:你指的是,人類檢查時間會變得更少,對吧?Douglas: 是的,當前使用Claude Code 時,有時每幾分鐘就需要檢查一次,但到年底,我們可能能看到模型能獨立完成多個小時的任務,而不會出錯。未來我們應該能實現「完全託管」,甚至像「星際爭霸」一樣管理多個任務平行推進,模型的操作速度將更有效率。主持人:你剛才提到了Codec、Google的Joule,還有一些新創公司也在做類似的東西。Douglas:是的,我們其實也要推出一個GitHub 代理(GitHub agent)。你可以在GitHub 上的任何地方呼叫,例如說「@Claude」,然後我們就能自動接手任務,為你完成一些工作。主持人:開發者選擇使用那一種工具或模型,最終會受到那些因素的影響?Douglas:除了模型的能力外,開發者與公司之間的信任和關係也非常重要。隨著模型能力的拉開差距,開發者可能會考慮不僅是技術指標,而是與公司一起打造未來的使命感。主持人:尤其是在當前發布節奏越來越快的背景下,感覺每個月都會有新模型登場。今天這個模型在某個評測上登頂,明天另一個又在別的評測上領先,大家都被各種對比資訊淹沒了。Douglas:沒錯,其實這就是為什麼「GPT包裹器」(GPT wrappers)反而意外走紅了。大家原本沒想到,當包裹器的好處之一是:你可以永遠站在最前線的模型能力上。主持人:我感覺所有不想當「包裹器」的人,最後都像是把錢燒光了。道格拉斯:完全同意。所以「衝浪」在模型能力的最前沿,是一件非常美妙的事。當然,也有相反的一面:有些東西,只有你掌握底層模型才能預判得出來,才能看清趨勢線,才能真正建構深度產品。比如說,很多「深度研究型」的AI應用,內部需要做大量的強化學習(RL)訓練,這種產品從外部是很難模仿的,必須在實驗室內部建構。主持人:能不能展開說一下這點?因為現在像OpenAI、Anthropic 這些公司,似乎也越來越開放,讓外部開發者可以參與。但很多人心裡都在想:那些東西是「實驗室專屬」的?那些又是開放給大家、任何人都可以競爭的?Douglas:這是個很關鍵的問題。 RT API(可微調API)的開放確實在改變一些格局,現在有更多價值可以由專注於某一垂直領域的公司來創造。但與此同時,實驗室仍具備「中心化優勢」。例如,OpenAI 會給允許他們在你模型輸出上繼續訓練的客戶提供某些折扣。換句話說,他們不僅是模型提供者,也是資料的二次使用者。這種中心化優勢是非常強的。至於「實驗室獨有優勢」是什麼?我覺得有幾個維度:算力轉換能力:你有多強的能力能把算力(FLOPs)、資金、資源,轉化成智能(Intelligence)?這就是為什麼Anthropic、OpenAI、DeepMind 等公司在模型表現上非常突出;模型的「可僱傭性」:當模型逐漸變成「虛擬員工」,你是否信任它?你是否喜歡它?你是否願意把任務交給它處理?個性化能力:模型能否理解你的脈絡、你公司的工作流程、你個人的偏好,這些也會變成差異化競爭的關鍵。總結來說,實驗室級公司最擅長的,是做出頂級模型,把算力轉化成智慧;而「應用層」的公司,可以透過專注、個性化、產品體驗,在自己的領域佔據一席之地。但兩者之間會有越來越多的交叉和協作。主持人:我猜,你們的模型也有很多人用來建構通用代理吧?這些公司不做模型本身,而是透過編排和智慧鏈呼叫來做事。你覺得這種方式會不會因為模型公司的成本優勢而註定失敗?Douglas:我並不認為這是一件壞事。相反,這種做法帶來了極大的競爭活力,大家都在探索什麼樣的產品形態最適合。確實,模型公司有一些優勢,例如我們能直接接觸底層模型,做更深入的微調,而且知道那些能力值得優先強化。說到底,所有的「護城河」最終都會消失——當你可以「隨時啟動一家公司」的時候,一切都會被重構。所以未來最核心的價值在那裡?是在客戶關係?在編排和整合能力?還是在把資本高效轉化為智慧的能力?這仍然是個複雜的問題。研究員洞見:強化學習的潛力與對齊的挑戰主持人:過去一年裡,有什麼你改變看法的了嗎?Douglas:在過去的一年,AI 進展加速,去年我們還在懷疑是否需要更多的預訓練算力才能達到理想中的模型能力,但現在已經有了明確的答案:不需要。強化學習(RL)證明了有效,到2027 年,擁有強大能力的「遠端數字勞工型」模型將變得確定。以前對AI的“希望”和“擔憂”從“可能”轉變為“幾乎確定”。主持人:那你覺得未來我們還需要大量擴展資料規模嗎?還是說,等到Claude 17 出來,模型演算法已經改進到只需要少量新資料?Douglas:很可能我們不再需要大幅擴展資料規模,因為模型的「世界理解能力」會足夠強,甚至能反過來指導機器人學習並提供回饋。有個概念叫做「生成者-驗證者差距」(generator-verifier gap),生成內容通常比執行它容易。這個路徑會持續提升模型能力。在機器人領域,認知的進展遠超物理操控世界的能力,這就是未來巨大的潛力。主持人:那你怎麼評價當前「AI對齊(Alignment)研究」的狀態?Douglas:可解釋性(Interpretability)研究已經取得了驚人的突破。去年我們剛開始理解「超位置」(superposition)和神經元特徵,Chris Olah 及其團隊的工作就是一個巨大飛躍。現在,我們已經能在前沿的大模型中識別出「電路級」的結構和行為特徵。有一篇精彩的論文研究了大語言模型的「生物學」,展示了它們如何清晰地推理概念。雖然我們還沒有完全破解模型的行為機制,但已經取得了令人驚嘆的進展。不過,值得注意的是,透過預訓練,模型能吸收並表現出人類的價值觀,某種程度上是「默認對齊」的;但一旦進入強化學習階段,這種對齊就不再得到保證。例如之前提到的「明知做不到就去下載Python 庫繞開的模型」,它是在目標導向下「想盡一切辦法完成任務」。這種學習過程本質上是「以目標為導向的手段優化」,而如何監督和把控這種模型行為,是目前所有人都在探索的重要挑戰。主持人:大概一個月前,「AI 2027」的話題被討論得很多。當時看到這個的時候,有什麼反應?Douglas:說實話,我覺得它非常可信。我讀那篇文章的時候,很多內容我都在想,「是的,也許事情真的就是這樣發展的。」 當然也存在一些分支路徑,但即使它只是個20% 的可能性,對我來說光是它有20% 的機率這件事就已經夠驚人了。主持人:你說20% 的可能性,是因為你對對齊(alignment)研究比較樂觀,還是你認為進展會比較慢一點?Douglas:整體上我對對齊研究比他們更樂觀。也許我的時間線比他們慢一年左右,但在這種大趨勢下,一年能算什麼呢?主持人:取決於你怎麼利用這一年。Douglas:對,如果你能充分利用它,做出正確的研究,確實能產生很大差異。主持人:那如果讓你當一天的政策制定者,你覺得我們應該做些什麼,來確保未來朝著更好的方向發展?Douglas:這是個好問題。最重要的是,你得真切感受到我們這些人正在看到並討論的趨勢線。如果沒有,你就要把國家關心的能力拆解開來,量化模型能否改進這​​些能力的程度,比如做一系列測試,看看如果模型能通過這些測試或在這些任務上取得顯著進展,那麼它就達到了某種智能的基準值,然後畫出趨勢線,看看在2027 或2028 年會發生什麼。主持人:就像國家級的評估系統(nation-state evals)?Douglas:對,例如你要把本國的經濟分解成所有的工作崗位,然後自問:如果一個模型可以完成這些工作,那這是不是就意味著它具備了真正的「智能」?你應該建立評估測試,把趨勢線畫出來,然後驚呼:「天那,那2027 或2028 年會怎麼樣?」下一步就是你要大規模投資於能讓模型更可理解、可引導、誠實可靠的研究,也就是我們說的對齊科學(alignment science)。有一點讓我感到遺憾──這個領域的推動大多來自前沿實驗室(Frontier Labs)。但其實我認為這本該是…主持人:那其他人能參與嗎?例如能用Claude 來做相關研究嗎?Douglas:不能。我的意思是,你仍然可以透過其他方式取得巨大進展。有一個叫做MAS 計劃的項目,很多人透過它在對齊研究、特別是可解釋性方面做出了有意義的成果,都是在Frontier Labs 之外完成的。我覺得應該有更多的大學參與這件事情。從很多方面來看,這其實更接近純科學:它是在研究語言模型中的「生物學」和「物理學」。主持人:但感覺這塊的研究熱度不高。Douglas:我不確定。我聽說在最近的一些會議上,例如ICML,機械可解釋性(mechanistic interpretability) 研討會居然沒有被收錄,這對我來說完全無法理解。在我看來,這就是對「模型內部機制」最純粹的科學探索。如果你想發現DNA 的螺旋結構、或像愛因斯坦那樣發現廣義相對論,那麼在機器學習/人工智慧這條技術樹上,對應的路徑就是研究機械可解釋性。主持人:那說說積極面吧。我們之前說未來幾年白領工作都會被自動化,但你覺得我們在那些方面還被低估了?Douglas:是的,模型肯定會自動化白領工作,但讓我吃驚的是,世界在整合這些技術方面進展得很慢。即便模型能力不再提升,現有能力就已經能釋放巨大的經濟價值,但我們還沒有真正圍繞這些模型重構工作流程。即便模型保持現狀,我們也能徹底改變世界。Douglas:這需要我們投資真正能讓世界變得更好的方向,例如推動物質資源的充足和高效管理,擴大物理學、娛樂產業的邊界等,並讓模型幫助我們實現這些目標。我的最大希望是讓人們更有創造力,能夠即興創造更多內容,如電視劇、電子遊戲等。人們將獲得巨大的賦能,未來將有無限可能。雖然模型會取代一些工作崗位,但每個人都會擁有更強的槓桿能力,社會的工作模式會發生巨變。主持人:你覺得現在AI 圈裡,那些東西被高估了,那些被低估了?Douglas:好,那我們先說被低估的。我覺得「世界模型(world models)」非常酷,但我們今天都沒怎麼討論它。隨著AR/VR 技術的進步,模型將能直接生成虛擬世界,這將帶來震撼的體驗。主持人:那需要一定的物理理解力吧,像是因果關係這些,我們現在還沒做到吧?Douglas:其實我覺得我們已經在某種程度上證明了模型具備物理理解能力。不管是在處理物理問題的evals 中,還是在一些視頻模型中都能看到這一點。例如我看過一個很棒的視頻,有人讓視頻生成模型把一個樂高鯊魚放到水下——它模擬了光線在樂高積木表面反射的樣子,陰影也放在了正確的位置。而這完全是模型從未見過的場景,是一次完整的泛化。這就是全面的物理建模能力了,對吧?主持人:你說即使現在模型停滯,依然能有大量應用開發。那些領域最被低估,尚未開發?Douglas:軟件工程領域已經很成熟,模型在程式設計上非常擅長。而幾乎所有其他領域,如法律、財會等,仍有巨大空間等待開發。尤其是智慧代理的應用,還沒有出現真正的非同步運行系統。其他領域空白,值得探索。主持人:人們常說程式設計是這些模型最理想的應用方向。Douglas:沒錯,它是個領先指標。但你應該預期,其他領域都會跟上來的。主持人:我記得你發過一張自己在Citadel 的照片,那是怎麼回事?Douglas:那是一場戰爭演習,邀請了情報機構和軍校學員模擬推演,假設AGI 到來,AI 變得強大,討論其地緣政治影響。主持人:那次經歷之後你是更害怕了還是安心了?Douglas:說實話,有點更害怕了。主持人:你覺得現在這類嚴肅的推演做得夠多了嗎?Douglas:不夠,很多人低估了接下來幾年技術發展的速度,也沒做好準備。即便你認為某件事只有20% 的可能性,也應該為此做好準備。每個技術鏈路的效率都還有巨大提升空間,未來目標幾乎是可以確定的。主持人:就像現在幾乎所有Anthropic 的人都已經達到了90% 的信心值?Douglas:幾乎所有團隊成員都非常有信心,到2027 年我們能實現「遠端即插即用的AGI 工作者」。即便信心較低的人也認為可能性有10-20%。因此,政府應當把這當作優先事項,並認真思考其社會影響。但目前這種緊迫感還遠遠不足。 (APPSO)
Fortune雜誌─又一巨頭推出其最強大模型,趕超OpenAI和Google
上周四,在舊金山舉辦的首屆開發者大會上,人工智慧初創公司Anthropic發佈了最新一代“前沿”或尖端人工智慧模型Claude Opus 4和Claude Sonnet 4。這家估值超610億美元的公司在一篇博文中表示,備受期待的新模型Opus是“全球最佳編碼模型”,能夠“在需要持續專注且涉及數千步驟的長期任務中保持穩定性能”。由新模型驅動的人工智慧代理可對數千個資料來源展開分析,並執行複雜操作。Anthropic發佈了最新一代“前沿”或尖端人工智慧模型Claude Opus 4和Claude Sonnet 4。圖片來源:GETTY IMAGES此次發佈凸顯了科技公司在“全球最先進人工智慧模型”領域的角逐之激烈——尤其在軟體工程等領域——各企業紛紛採用新技術來提升速度與效率,Google上周推出的實驗性研究模型Gemini Diffusion便是例證。在一項對比不同大型語言模型軟體工程任務表現的基準測試中,Anthropic的兩款模型擊敗了OpenAI的最新模型,而Google的最佳模型則表現落後。部分早期測試者已通過實際任務體驗新模型。該公司舉例稱,購物獎勵公司樂天株式會社(Rakuten)的人工智慧總經理表示,Opus 4在部署到一個複雜項目後“自主編碼近七小時”。Anthropic技術團隊成員黛安·佩恩(Dianne Penn)告訴《財富》雜誌:“這實際上是人工智慧系統能力的重大飛躍。”尤其是當模型從“助手”角色升級為“代理”(即能自主為使用者執行任務的虛擬協作者)時。她補充道,Claude Opus 4 增添了若干新功能,例如能更精準地執行指令,且在“記憶”能力上實現了提升。佩恩提到,從過往情況來看,這些系統難以記住所有歷史操作,但此次“特意開發了長期任務感知能力”。該模型借助類似檔案系統的機制來追蹤進度,並策略性地呼叫記憶資料以規劃後續步驟,如同人類會依據現實狀況調整計畫與策略。兩款模型均可在推理與工具呼叫(如網頁搜尋)之間切換,還能同時使用多種工具(如同步搜尋網頁並運行程式碼測試)。Anthropic人工智慧平台產品負責人邁克爾·格斯特恩哈伯(Michael Gerstenhaber)表示:“我們確實視此為一場向巔峰進發的競賽。我們希望確保人工智慧能造福所有人,因此要給所有實驗室施加壓力,促使其以安全的方式推動人工智慧發展。”他解釋稱,這包括展示公司自身的安全標準。Claude 4 Opus所推出的安全協議,其嚴格程度遠超以往任何一款Anthropic模型。該公司的《負責任擴展政策》(RSP)作為一項公開承諾,最初於2023年9月發佈,其中明確規定:“除非實施可將風險控制在可接受範圍內的安全與保障措施,否則不會訓練或部署可能引發災難性傷害的模型。”Anthropic由OpenAI前員工於2021年創立,他們擔憂OpenAI過於追求速度與規模,而忽略了安全與治理。2024年10月,該公司對《負責任擴展政策》進行更新,採用“更為靈活且細緻的方法來評估和管理人工智慧風險”,同時堅持承諾,即除非已實施充分的保障措施,否則不會訓練或部署模型。”截至目前,Anthropic的所有模型均依照其《負責任擴展政策》被歸為人工智慧安全等級2(以下簡稱ASL-2),該等級“為人工智慧模型設定了安全部署與模型安全的基礎標準”。Anthropic發言人表示,公司並未排除新模型 Claude Opus 4達到ASL-2門檻的可能性,不過,公司正積極依據更為嚴格的ASL-3安全標準推出該模型——該標準要求強化防範模型被盜用和濫用的保護措施,涵蓋建構更強大的防禦機制,以杜絕有害資訊洩露或防止對模型內部“權重”的訪問。根據Anthropic的《負責任擴展政策》,被歸入該公司第三安全等級的模型達到了更為危險的能力閾值,其功能強大到足以構成重大風險,比如協助武器開發或實現人工智慧研發自動化。Anthropic證實,Opus 4無需最高等級的保護措施,即ASL-4。Anthropic的一位發言人表示:“我們在推出上一款模型Claude 3.7 Sonnet時,便已預料到可能會採取此類措施。當時我們認定該模型無需遵循ASL-3等級的保護措施。但我們也承認,鑑於技術進步之迅速,不久的將來,模型可能需要更嚴格的保護措施。”在Claude 4 Opus即將發佈之際,她解釋稱,Anthropic主動決定依據ASL-3標準推出該產品。“此舉使我們能在需求產生之前,專注於開發、測試並完善這些保護措施。依據我們的測試結果,已排除該模型需要ASL-4等級保護措施的可能性。”不過,公司並未說明升級至ASL-3標準的具體觸發緣由。Anthropic歷來會在產品發佈之際,同步推出模型或“系統卡片”,提供有關模型能力及安全評估的詳細資訊。佩恩向《財富》雜誌透露,Anthropic將在新推出Opus 4和Sonnet 4時發佈對應的模型卡片,發言人也證實卡片會與模型一同發佈。近期,OpenAI和Google等公司均推遲發佈模型卡片。今年4月,OpenAI因在發佈GPT-4.1模型時未附帶模型卡片而遭受批評,該公司稱該模型並非“前沿”模型,無需提供卡片。今年3月,Google在Gemini 2.5 Pro發佈數周後才公佈其模型卡片,人工智慧治理專家批評其內容“貧乏”且“令人擔憂”。 (財富FORTUNE)